بهینه‌سازی هسته‌های چندگانه در ماشین‌بردارپشتیبان جفتی برای کاهش شکاف معنایی تشخیص صفحات فریب‌آمیز

نویسندگان

چکیده مقاله:

چکیده: موتورهای جستجو با خزش صفحات موجود در اینترنت و شاخص‌گذاری آن‌ها، قابلیت جستجوی سریع اطلاعات را به کاربران می‌دهند. یکی از چالش‌های مهم در استفاده از این ابزار، صفحاتی هستند که از آن‌ها به‌عنوان صفحات فریب‌آمیز نام‌ برده می‌شود. رویکردهای مختلفی جهت تشخیص صفحات فریب ابداع ‌شده است که می‌توان به روش‌هایی مانند سنجش میزان شباهت سبک کدهای صفحات، تحلیل الگوی زبانی صفحات و همچنین استفاده از روش‌های یادگیری ماشین بر اساس ویژگی‌های صفحات اشاره کرد. ازجمله الگوریتم‌های یادگیری ماشین که در این حوزه استفاده ‌شده است ولی نتایج قابل‌توجهی را ارائه نکرده، الگوریتم ماشین‌بردارپشتیبان[i] (SVM) است. استفاده از هسته در ساختار طبقه‌بند SVM باعث می‌شود که داده‌هایی که دارای الگوی غیرخطی هستند با نگاشت به فضایی با ابعاد بیش‌تر بتوانند با مدل خطی تفکیک‌پذیر شوند. این کار باعث افزایش دقت تفکیک‌کنندگی مدل یادگیری ماشین می‌شود. اخیراً توسعه‌ایی از SVM با نام SVM جفتی[ii] (TSVM) ارائه‌ شده است که با تغییر در فرضیه اولیه آن، از دو اَبَرصفحه[iii] برای تفکیک نمونه‌های هر کلاس استفاده می‌کند و توانسته نتایج بهتری در طبقه‌بندی ارائه کند. به دلیل استفاده از دو ابرصفحه در TSVM، لذا بهتر است تا از هسته‌های چندگانه در ساختار آن استفاده شود. به دلیل اینکه توابع هسته در هر کاربرد اختصاصی هستند لذا نمی‌توان از یک هسته عمومی برای همه کاربردها استفاده کرد. در این مقاله برای بهینه‌سازی ترکیب‌های بهینه توابع هسته پایه، از روشی تکاملی مبتنی بر الگوریتم ژنتیک (GA) استفاده‌ شده است که با بهره‌گیری از آن در فرآیند تصمیم‌گیری هر اَبَرصفحه TSVM، بهبود در تشخیص صفحات فریب حاصل گردیده است. برای پیاده‌سازی و ارزیابی روش پیشنهادی، از مجموعه دادگان UK-2006 و UK-2007 استفاده ‌شده است که نتایج حاصل بیانگر مؤثر بودن ایده پیشنهادی در این پژوهش است.  

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بهینه سازی هسته های چندگانه در ماشین بردارپشتیبان جفتی برای کاهش شکاف معنایی تشخیص صفحات فریب آمیز

چکیده: موتورهای جستجو با خزش صفحات موجود در اینترنت و شاخص گذاری آن ها، قابلیت جستجوی سریع اطلاعات را به کاربران می دهند. یکی از چالش های مهم در استفاده از این ابزار، صفحاتی هستند که از آن ها به عنوان صفحات فریب آمیز نام برده می شود. رویکردهای مختلفی جهت تشخیص صفحات فریب ابداع شده است که می توان به روش هایی مانند سنجش میزان شباهت سبک کدهای صفحات، تحلیل الگوی زبانی صفحات و همچنین استفاده از روش ...

متن کامل

کاهش شکاف معنایی در دسته‌بندی پرسش‌ها با بهره‌گیری از قوانین طبقه‌بندی

چکیده: دسته‌بندی پرسش‌ها[i] یکی از مؤلفه‌های حیاتی سیستم‌های بازیابی اطلاعات[ii] و پاسخ‌گویی به پرسش[iii] است. هدف از دسته‌بندی پرسش، شناسایی دقیق نوع پاسخ موردانتظار آن و انتساب برچسبی به آن مطابق با دسته‌ای است که پرسش در آن قرار می‌گیرد. تاکنون با دو رویکرد مبتنی بر قانون[iv] و یادگیری ماشین[v]، پژوهش‌های متعددی در این حوزه صورت پذیرفته است. هدف ما در این پژوهش تلفیق نتایج این دو رویکرد به‌م...

متن کامل

کاهش شکاف معنایی در دسته بندی پرسش ها با بهره گیری از قوانین طبقه بندی

چکیده: دسته بندی پرسش ها[i] یکی از مؤلفه های حیاتی سیستم های بازیابی اطلاعات[ii] و پاسخ گویی به پرسش[iii] است. هدف از دسته بندی پرسش، شناسایی دقیق نوع پاسخ موردانتظار آن و انتساب برچسبی به آن مطابق با دسته ای است که پرسش در آن قرار می گیرد. تاکنون با دو رویکرد مبتنی بر قانون[iv] و یادگیری ماشین[v]، پژوهش های متعددی در این حوزه صورت پذیرفته است. هدف ما در این پژوهش تلفیق نتایج این دو رویکرد به م...

متن کامل

استفاده از سیستم دسته‌بند چندگانه برای تشخیص بیماری آندومتریوز: رویکرد زیرفضای تصادفی

یکی از روش­های مناسب برای بهبود صحّت دسته‌بندی نمونه‌ها، استفاده از چند دسته‌بند مختلف و سپس ترکیب نتایج خروجی آن­ها است که اغلب تحت عنوان «سیستم­های دسته‌بند چندگانه» یا «سیستم­های شورایی» خوانده می‌شوند. در این مقاله برای تشخیص بیماری آندومتریوز، سیستم دسته‌بند چندگانه براساس رویکرد زیرفضای تصادفی طراحی و پیاده‌سازی شده است. در این روش، دسته‌بندهای شورا با زیرمجموعه‌های ویژگی مختلف آموزش می‌بی...

متن کامل

ایجاد روش هایی برای اندیس گذاری, جستجو و رتبه بندی صفحات برای موتور جستجوی معنایی در حوزه صفحات فارسی ict

با توجه به رشد روزافزون اطلاعات و دانش, حجم¬های بسیار بالا از این اطلاعات و دانش¬ها موجود می باشد که جستجو برای یافتن اطلاعاتی خاص در آن¬ها, به دلیل حجم¬های بالای آنها دیگر کار آسانی نمی¬باشد. همواره نیاز به سیستم¬هایی که بتواند اطلاعات مورد نیاز افراد را فراهم کند احساس ¬شده است. چالش¬های فنی در مسیر طراحی این گونه سیستم¬ها را می¬توان در دسته¬های کلی تقسیم¬بندی کرد. می¬توان به نحوه ذخیره سازی ...

کاربرد صفحات مستغرق در کاهش آبشستگی پایه استوانه‌ای پل‌ها

صفحات مستغرق سازه­­های مستطیلی نازکی هستند که به لحاظ داشتن زاویه با جهت جریان ناحیه پر فشار و کم فشار در دو طرف آن­­ها ایجاد می­شود. این سازه­­ها باعث ایجاد گرداب ثانویه و تغییر الگوی جریان در کف رودخانه و در نتیجه تغییر روند انتقال رسوب و فرسایش می­شوند. عملکرد صفحات مستغرق برای کاهش آبشستگی پایه پل و حرکت رسوب از اطراف صفحات به علت ایجاد جریان رو به­ پایین در جلوی آن­­ها تحت تأثیر نحوه قرارگ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 46  شماره 4

صفحات  135- 145

تاریخ انتشار 2016-10-03

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023